Telegram Group & Telegram Channel
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science



tg-me.com/ds_interview_lib/985
Create:
Last Update:

🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/985

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

Why Telegram?

Telegram has no known backdoors and, even though it is come in for criticism for using proprietary encryption methods instead of open-source ones, those have yet to be compromised. While no messaging app can guarantee a 100% impermeable defense against determined attackers, Telegram is vulnerabilities are few and either theoretical or based on spoof files fooling users into actively enabling an attack.

What Is Bitcoin?

Bitcoin is a decentralized digital currency that you can buy, sell and exchange directly, without an intermediary like a bank. Bitcoin’s creator, Satoshi Nakamoto, originally described the need for “an electronic payment system based on cryptographic proof instead of trust.” Each and every Bitcoin transaction that’s ever been made exists on a public ledger accessible to everyone, making transactions hard to reverse and difficult to fake. That’s by design: Core to their decentralized nature, Bitcoins aren’t backed by the government or any issuing institution, and there’s nothing to guarantee their value besides the proof baked in the heart of the system. “The reason why it’s worth money is simply because we, as people, decided it has value—same as gold,” says Anton Mozgovoy, co-founder & CEO of digital financial service company Holyheld.

Библиотека собеса по Data Science | вопросы с собеседований from ye


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA